Yiksan0315's Blog

Nonparametric Regession

# Tag:

  • Source/KU_ML

Nonparametric Regession

  • Smoother: Nonparametric regession estimator.
  • Smooth: Nonparametric regession esttimated value.

Nonparametric이므로, 가까운 는 가까운 값을 가질 것이라는 가정(Inductive Bias)을 제외하고는 어떠한 가정도 존재하지 않는다.
이 때의 = 의 neighbor들의 평균 label().

Regressogram

Nonparametric Methods의 Histogram을 이용한 Regession model.

when:

해당 와 같은 bin에 있는 값들의 label의 평균으로 예측한다.

histogram을 활용한 모델이므로, Histogram과 동일한 단점을 가지게 된다.

Running Mean Smoother

Naive Estimator와 유사하다. (다른 Data point와의 거리) / (bin size)가 1보다 작을 경우에만 다른 Data point의 label 값을 평균하여 예측한다.

when:

bin size가 분모에 있으니, bin size가 커지게 된다면, 더 많이 포함시키게 된다.

Running Line Smoother

같은 bin안에 들어있는 Data point들을 이용해 각 bin 별로 Local Regression Line을 생성한다.

하지만, 여전히 불연속인 문제가 있고, Bin안의 값이 아예 없다면 정의가 되지 않는 문제가 발생한다.

Kernel을 이용하면, 멀리 있는 data point들은 영향을 덜 미치게 하여 weighted running line smoother()를 만들 수는 있으나, 위의 문제가 동일하게 발생한다.

Kernel Smoother

Kernel 함수를 이용한 Smoother.

만일 Guassian Kernel을 이용한다고 하면, 다른 점들()의 Gaussian Distribution 더해 그 값을 이용한다.

  • 모든 Sample을 이용하므로, 모든 Bin에서 정의된다.
  • 연속으로 나타나게 된다.
  • 하지만, 모든 점에 대해서 계산해야 하므로 계산량이 높아진다.

KNeighbor Smoother

k-nearest neighbor 기법을 이용한 smoother.

when:

  • 번째 가까운 sample 까지의 거리(어찌보면 bin size라고 할 수 있다.)에 포함되는 갯수는 최소 1개 이상이므로 모든 bin에서 정의 된다.
  • 또한, 개의 점까지에 대해서만 계산하므로 계산량이 줄어든다.

Oversmoothing and Undersmoothing

OverfittingUnderfitting의 Nonparametric regression에서의 문제라고 볼 수 있다.

  • Oversmoothing: or : Bias가 낮아지지만 Variance가 낮아진다. (underfitting)
    • Smooth함이 올라감에 따라, 오히려 제대로 잘 표현하지 못하게 되는 것이다.
    • 즉, 데이터의 중요한 패턴을 과하게 smooth되므로 bias가 커지게 된다.
  • Undersmoothing: or : Bias가 낮아지지만 Variance가 높아진다. (overfitting)
    • 특정 샘플에 과하게 집중된 경우로, 만약 noise가 존재한다면 이까지 반영해 학습하게 될 수 있다.
    • 모델이 너무 복잡한 경우로, 작은 변화에도 민감해진다.

Regularized cost function

: 기존의 MSE Error에, 곡률(, 얼마나 빨리 변화하는지)을 더해 smooth함 또한 error에 포함시킨다.

  • 곡률이 높아질 수록, 즉 변화율이 높을수록 smooth함이 떨어진다고 볼 수 있다.
  • 는 hyperparameter로, Validation 과정을 통해 찾을 수 있다.
toc test

이 페이지는 리디주식회사에서 제공한 리디바탕 글꼴이 사용되어 있습니다. 리디바탕의 저작권은 리디주식회사가 소유하고 있습니다.

This Font Software is licensed under the SIL Open Font License, Version 1.1.

Copyright 2025. yiksan0315 All rights reserved.